Esta dimensión hace parte del estudio de la encuesta de calidad de vida de la alcaldia de Medellín 2018, para este ejercicio se seleccionaron las siguientes preguntas de dicha dimensión para realizar el analisis.
* Si <- 1.
* No <- 2.
Se identifica que la pregunta p_35 en su resumen inicial no tiene valores perdidos, tiene una completitud total.
Indicador definido. * Indicador. Nivel de analfabetismo en barrios de Medellín. * Nivel de analfabetismo = Respuestas en 2 por Barrio / Total encuestados en el Barrio.
## # A tibble: 6 x 4
## comuna barrio p_35 k_35
## <fct> <fct> <chr> <dbl>
## 1 ALTAVISTA AGUAS FRÍAS 2 0.135
## 2 ALTAVISTA ALTAVISTA CENTRAL 2 0.142
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA 2 0.149
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 2 0.0517
## 5 ALTAVISTA BUGA PATIO BONITO 2 0.128
## 6 ALTAVISTA CABECERA ALTAVISTA 2 0.113
* Si <- 1.
* No <- 2.
* -88 <- No aplica
Indicador definido. * Indicador 1
Proporsión de la pregunta p_37 con sus posibles respuestas.
## # A tibble: 3 x 2
## p_37 cantidad
## <chr> <dbl>
## 1 -88 26.7
## 2 1 1.76
## 3 2 71.5
Se encuetra que en la pregunta formulada, existe una gran cantidad de respuestas con la opción -88 (No aplica). Esta respuesta puede terner varias consideraciones : * La persona encuestada, hace parte de las personas que contestaron p_35 como NO. * La persona encuentada, aunque contesto afirmativamente la pregunta p_35, no tiene estudios auque tiene un poco conocimiento en lecto-escritura.
Para efectos de esta pregunta en este estudio, se considerá que los encuestados en la p_37 con respuesta -88 se entenderá que no realizá estudios durante el año.
## # A tibble: 2 x 2
## p_37 cantidad
## <chr> <dbl>
## 1 1 1.76
## 2 2 98.2
## # A tibble: 6 x 4
## comuna barrio p_37 k_37
## <fct> <fct> <chr> <dbl>
## 1 ALTAVISTA AGUAS FRÍAS 1 0.0159
## 2 ALTAVISTA ALTAVISTA CENTRAL 1 0.0178
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA 1 0.0207
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 1 0.0259
## 5 ALTAVISTA BUGA PATIO BONITO 1 0.0208
## 6 ALTAVISTA CABECERA ALTAVISTA 1 0.00595
####Indicador definido. * Indicador 1 Porcentaje de desescolarización debido a la falta de garantias en barrios de Medellín. * Formula del indicador: * Numero de encuestas con respuestas orientadas a la falta de garantias / Total encuestados en Barrios
Para consolidar la variable en terminos de indicador se consolidaron las repuestas de la pregunta p_38 en los siguientes grupos, adicional las preguntas fueron agrupadas así.
Generación de indicador para la p_38
## # A tibble: 6 x 4
## comuna barrio p_38 k_38
## <fct> <fct> <chr> <dbl>
## 1 ALTAVISTA BUGA PATIO BONITO G 0.00595
## 2 ALTAVISTA EL JARDÍN G 0.0125
## 3 ALTAVISTA LA ESPERANZA G 0.000352
## 4 ALTAVISTA SAN PABLO G 0.00154
## 5 ARANJUEZ BERLÍN G 0.000502
## 6 ARANJUEZ BERMEJAL- LOS ÁLAMOS G 0.000699
## # A tibble: 6 x 4
## comuna barrio p_43 k_43
## <fct> <fct> <chr> <dbl>
## 1 ALTAVISTA AGUAS FRÍAS 3 0.0476
## 2 ALTAVISTA ALTAVISTA CENTRAL 3 0.0651
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA 3 0.0622
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 3 0.0647
## 5 ALTAVISTA BUGA PATIO BONITO 3 0.107
## 6 ALTAVISTA CABECERA ALTAVISTA 3 0.0595
Indicador definido. * Indicador 1 Porcentajes de estudiantes que se demoran mas de 41 minutos para llegar a su centro educativo. - k_qtion_2.
Generacio de indicador para p_44
## # A tibble: 6 x 4
## comuna barrio p_44 k_44
## <fct> <fct> <chr> <dbl>
## 1 ALTAVISTA AGUAS FRÍAS 2 0.0238
## 2 ALTAVISTA ALTAVISTA CENTRAL 2 0.0335
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA 2 0.0373
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 2 0.0474
## 5 ALTAVISTA BUGA PATIO BONITO 2 0.0476
## 6 ALTAVISTA CABECERA ALTAVISTA 2 0.00595
Indicador definido. * Indicador 1 Porcentaje de personas con educacion superior 6,7,8,9.
Generacio de indicador para p_45
## # A tibble: 6 x 4
## comuna barrio p_45 k_45
## <fct> <fct> <chr> <dbl>
## 1 ALTAVISTA AGUAS FRÍAS 2 0.0159
## 2 ALTAVISTA ALTAVISTA CENTRAL 2 0.0316
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA 2 0.112
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 2 0.362
## 5 ALTAVISTA BUGA PATIO BONITO 2 0.0268
## 6 ALTAVISTA CABECERA ALTAVISTA 2 0.0119
Union de los indicadores de la dimension.
## comuna barrio k_35 k_37
## 1 ALTAVISTA AGUAS FRÍAS 0.13492063 0.015873016
## 2 ALTAVISTA ALTAVISTA CENTRAL 0.14201183 0.017751479
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA 0.14937759 0.020746888
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 0.05172414 0.025862069
## 5 ALTAVISTA BUGA PATIO BONITO 0.12797619 0.020833333
## 6 ALTAVISTA CABECERA ALTAVISTA 0.11309524 0.005952381
## k_38 k_43 k_44 k_45
## 1 0.000000000 0.04761905 0.023809524 0.01587302
## 2 0.000000000 0.06508876 0.033530572 0.03155819
## 3 0.000000000 0.06224066 0.037344398 0.11203320
## 4 0.000000000 0.06465517 0.047413793 0.36206897
## 5 0.005952381 0.10714286 0.047619048 0.02678571
## 6 0.000000000 0.05952381 0.005952381 0.01190476
Proceso de escalamiento de datos
## k_35 k_37 k_38
## ALTAVISTA/AGUAS FRÍAS 0.9803570 -0.07559387 -0.5040064
## ALTAVISTA/ALTAVISTA CENTRAL 1.1366107 0.10847324 -0.5040064
## ALTAVISTA/ÁREA DE EXPANSIÓN ALTAVISTA 1.2989142 0.40198772 -0.5040064
## ALTAVISTA/ÁREA DE EXPANSIÓN BELÉN RINCÓN -0.8528670 0.90321472 -0.5040064
## ALTAVISTA/BUGA PATIO BONITO 0.8273371 0.41045834 3.9697256
## ALTAVISTA/CABECERA ALTAVISTA 0.4994372 -1.04769828 -0.5040064
## k_43 k_44 k_45
## ALTAVISTA/AGUAS FRÍAS -0.7236779 -0.03056668 -0.9246057
## ALTAVISTA/ALTAVISTA CENTRAL -0.2983898 0.40288060 -0.8159130
## ALTAVISTA/ÁREA DE EXPANSIÓN ALTAVISTA -0.3677246 0.57293352 -0.2582497
## ALTAVISTA/ÁREA DE EXPANSIÓN BELÉN RINCÓN -0.3089451 1.02191307 1.4744095
## ALTAVISTA/BUGA PATIO BONITO 0.7253885 1.03106506 -0.8489845
## ALTAVISTA/CABECERA ALTAVISTA -0.4338646 -0.82679049 -0.9521043
Antes de iniciar los analisis de los grupos, se realizo un proceso de calculo de los minimos, maximos y media de la data real recogida en las encuestas con el proposito de realizar unas graficos de radar y poder hacer un analísis que nos permita entregar mayor detalle de lo que sucede en cada cluster. Al realizar los graficos a simple vista encontramos que existen varios indicadores que realmente no aportan mucho en el momento de definir los grupos. Tambien se procede a consultar los indicadores fundamentales que nos permiten validar la fortaleza del modelo, garantizando la menor varianza dentro del cluster (within_SS) y la maxima varianza entre los grupos (between_SS) y así calculando su ajuste.
between_SS = 860.3908 total_SS = 1854 between_SS / total_SS (Varianza de la data) = 46,40272%
## [1] 185.7018
## [1] 0.4640727
En este caso la XXXX tiene un valor muy bajo. Aquí tenemos 2 alternativas para aumentar el nivel de xxxx. + Aumentar el tamaño de K, pero aquí corremos el riesgo de perder el equilibrio de los grupos pues si aumentamos el K lo que se hacemos es divider más los grupos hasta que el valor de las varianzas de los grupos sea igual total de todas la varianza y no estariamos respetando los graficos recomendados en la prueba del codo donde nos recomienda un k de grupos optimo.
La grafica generada del PCA donde calcula los porcentajes de explicación nos muestra que existen variables las cuales tiene muy poco poder de explicación para definir los grupos. Realizando un camparativo entre los graficos, Radar y PCA encontramos que K_37 (Porcentaje de personas que estudiaron en este año.) y K_38 (Porcentaje de desescolarización debido a la falta de garantias en barrios de Medellín.) no son determinantes en el momento de definir los grupos.
Se procedera a Eliminar los indicadores y correr de nuevo el algoritmo K-means y determinar su ajuste.
## k_35 k_43 k_44
## ALTAVISTA/AGUAS FRÍAS 0.9803570 -0.7236779 -0.03056668
## ALTAVISTA/ALTAVISTA CENTRAL 1.1366107 -0.2983898 0.40288060
## ALTAVISTA/ÁREA DE EXPANSIÓN ALTAVISTA 1.2989142 -0.3677246 0.57293352
## ALTAVISTA/ÁREA DE EXPANSIÓN BELÉN RINCÓN -0.8528670 -0.3089451 1.02191307
## ALTAVISTA/BUGA PATIO BONITO 0.8273371 0.7253885 1.03106506
## ALTAVISTA/CABECERA ALTAVISTA 0.4994372 -0.4338646 -0.82679049
## k_45
## ALTAVISTA/AGUAS FRÍAS -0.9246057
## ALTAVISTA/ALTAVISTA CENTRAL -0.8159130
## ALTAVISTA/ÁREA DE EXPANSIÓN ALTAVISTA -0.2582497
## ALTAVISTA/ÁREA DE EXPANSIÓN BELÉN RINCÓN 1.4744095
## ALTAVISTA/BUGA PATIO BONITO -0.8489845
## ALTAVISTA/CABECERA ALTAVISTA -0.9521043
Después de eliminar los dos indicadores que no tenian ningun poder explicativo para los grupos, vemos nuevamente que en el grafico de cluster los grupos estan más definidos y no solapan tanto como en la primera corrida del modelo.
Revisando de nuevo el indicador propio de evaluación, tenemos :
between_SS = 747.8616 se encuentra un total_SS = 1236 between_SS / total_SS (Varianza de la data) = 60.5066%
De esta forma, se procede entonces a generar de nuevo los graficos de radar.
Después del ejercicio realizado para eliminar indicadores se tienen los siguientes definidos para el analisis.
Los grupos generados por el algoritmo K-means para la encuesta que estudia la dimensión de educación para el estudio Medellín como Vamos, muestra que la educación en los barrios de Medellin se dividen en 4 grupos donde son determinados por : * El nivel de analfabetismo. * El medio de transporte en el que se dirigen a su sitio de educación. * El tipo que demoran en ir a su lugar de estudio. * El nivel de estudios superiores que la persona curso.
El Cluster número 1, se diferencia de los demas grupos porque las personas que se dirigen a estudar su mayoria no se demoran más de 41 minutos, menos del 3% de los encuentados. Solo un poco más del 10% tienen estudios superiores, menos del 10% utilizan el trasporte publico para dirigirse al sitio de estudio, temas comprensible debido a que menos del 3% estudian en sitios lejanos. El nivel de analfabetismo ronda en un 7% de las perosonas encuestadas. El cluster 1 esta comprenido en 130 barrios dispersos en todo el valle de la aburra, distribuidas en comunas de.
ALTA VISTA,ARANJUEZ,BELEN,BUENOS AIRES,CASTILLA,DOCE DE OCTUBRE,EL POBLADO,GUAYABAL,LA AMERICA,LA CANDELARIA,LAURELES-ESTADIO,MANRIQUE,PALMITAS,ROBLEDO,SAN ANTONIO DE PRADO,SAN CRISTOBAL,SAN JAVIER,SANTA ELENA,VILLA HERMOSA
Este cluster comprenden comunas donde la mayoria de sus habitantes pertenecen a una clase obrera trabajadora.
El Cluster numero 2, se diferencia de los demas grupos debido a que el 23% las personas que viven en estos barrios, utilizan el transporte publico para dirigirse al lugar de estudio. La segunda variable más notoria es el analfabetismo, con al rededor del 18%. Las dos variables restantes tiene un comportamiento menor. El cluster 2 esa conformado por 3 barrios estos son: El carmelo, La Ilusión y San Jose de la Montaña, todos pertenecientes a la comuna de San Cristobal. Este clustes nos permite concluir que hace fata una institucion educativa cerca a la comunidad que permita elevar el nivel de vida de los habitantes pues gran cantidad de personas deben deplazarse mas de 41 minutos a un sitio de educacion.
El Clustes 3, Este grupo se caracteriza porque tiene los indicadores más regulares que los otros grupos, tres de cuatro indicadores de estudio tiene un comportamiento parejo, el analfabetismo tiene un leve incremento con respecto a los demas. El indicador k_45 (Estudios superiores) tiene un leve decenso. Esto puede ocurrir debido a que las personas de estos barrios, de mayores posibilidades. Los barrios que hacen parte de este cluster estan comprendidos en las siguientes comunas: ARANJUEZ,BELEN,BUENOS AIRES,CASTILLA,DOCE DE OCTUBRE,GUAYABAL,LA CANDELARIA,MANRIQUE,PALMITAS,POPULAR ROBLEDO,SAN ANTONIO DE PRADO,SAN CRISTOBAL,SAN JAVIER,SANTA CRUZ,SANTA ELENA,VILLA HERMOSA
El Cluster 4, Este cluster se difencia de los otros grupos por su bajo porcentaje de analfabetismo y su alto porcentaje de personas con educación superior. Las personas que viven en los barrios pertenecientes a este grupo utilizan poco el transporte urbano y en promedio sedemoran poco para llegar a su lugar de estudio. Este grupo al parecer corresponde a u grupo aspiracional debido a que las personas con mejores oportunidades para tener estudio superiores llegan a este grupo. El cluster 4, comprenden 70 barrios ubicados en las siguientes comunas.
ALTA VISTA,BELEN,BUENOS AIRES,EL POBLADO,LA AMERICA,LA CANDELARIA,LAURELES-ESTADIO,ROBLEDO,SANTA ELENA
Comportamiento de preguntas por cluster
## Loading required package: sp
## rgdal: version: 1.4-8, (SVN revision 845)
## Geospatial Data Abstraction Library extensions to R successfully loaded
## Loaded GDAL runtime: GDAL 2.4.2, released 2019/06/28
## Path to GDAL shared files: /Library/Frameworks/R.framework/Versions/3.6/Resources/library/rgdal/gdal
## GDAL binary built with GEOS: FALSE
## Loaded PROJ.4 runtime: Rel. 5.2.0, September 15th, 2018, [PJ_VERSION: 520]
## Path to PROJ.4 shared files: /Library/Frameworks/R.framework/Versions/3.6/Resources/library/rgdal/proj
## Linking to sp version: 1.3-2
## Warning: Expected 2 pieces. Additional pieces discarded in 1 rows [260].
## OGR data source with driver: ESRI Shapefile
## Source: "/Users/jdtangarife/Documents/GitHub/TAE_T1/Barrio_Vereda/Barrio_Vereda.shp", layer: "Barrio_Vereda"
## with 332 features
## It has 6 fields
## Integer64 fields read as strings: OBJECTID SUBTIPO_BA
## comuna barrio k_35 k_43
## 1 ALTAVISTA AGUAS FRÍAS 0.13492063 0.04761905
## 2 ALTAVISTA ALTAVISTA CENTRAL 0.14201183 0.06508876
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA 0.14937759 0.06224066
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 0.05172414 0.06465517
## 5 ALTAVISTA BUGA PATIO BONITO 0.12797619 0.10714286
## 6 ALTAVISTA CABECERA ALTAVISTA 0.11309524 0.05952381
## k_44 k_45 cluster
## 1 0.023809524 0.01587302 3
## 2 0.033530572 0.03155819 3
## 3 0.037344398 0.11203320 3
## 4 0.047413793 0.36206897 4
## 5 0.047619048 0.02678571 3
## 6 0.005952381 0.01190476 3
Convertimos a minúsculas
## barrio cluster
## 1 aguas frÃas 3
## 2 altavista central 3
## 3 área de expansión altavista 3
## 4 área de expansión belén rincón 4
## 5 buga patio bonito 3
## 6 cabecera altavista 3
## [1] 113